PROJET R : Groupe 3

1. Introduction

Les accidents de la route constituent une problématique majeure de santé publique et de sécurité en France, avec des implications importantes sur les vies humaines et l’économie. L’objectif de ce projet est d’explorer les données relatives aux accidents de la route en France en 2023, disponibles sur la plateforme Open Data du gouvernement français, afin d’identifier les tendances et les facteurs clés associés aux accidents.

2. Présentation du Dataset

Pour chaque accident corporel (soit un accident survenu sur une voie ouverte à la circulation publique, impliquant au moins un véhicule et ayant fait au moins une victime ayant nécessité des soins), des saisies d’information décrivant l’accident sont effectuées par l’unité des forces de l’ordre (police, gendarmerie, etc.) qui est intervenue sur le lieu de l’accident. Ces saisies sont rassemblées dans une fiche intitulée bulletin d’analyse des accidents corporels. L’ensemble de ces fiches constitue le fichier national des accidents corporels de la circulation dit ” Fichier BAAC1” administré par l’Observatoire national interministériel de la sécurité routière “ONISR”. Les bases de données, extraites du fichier BAAC, répertorient l’intégralité des accidents corporels de la circulation intervenus durant une année précise en France métropolitaine ainsi que les départements d’Outre-mer (Guadeloupe, Guyane, Martinique, La Réunion et Mayotte depuis 2005) avec une description simplifiée. Cela comprend des informations de localisation de l’accident, telles que renseignées ainsi que des informations concernant les caractéristiques de l’accident et son lieu, les véhicules impliqués et leurs victimes. Description des bases de données annuelles des accidents corporels de la circulation routière - Années de 2005 à 2023.

Source Dataset : data.gouv.fr (ministère de l’intérieur)

https://www.data.gouv.fr/fr/datasets/bases-de-donnees-annuelles-des-accidents-corporels-de-la-circulation-routiere-annees-de-2005-a-2019/

Notre base de données est composée de 4 fichiers csv :

  • Caractéristique.csv (54822) lignes) Décrit les circonstances générales de l’accident (types de collisions, luminosité, date)

  • Lieux.csv (70860 lignes): Décrit le lieu principal de l’accident (catégorie route, nb de voies, régime de circulation, surface de la chaussée,…)

  • Véhicules.csv (93585 lignes): Décrit les véhicules impliqués dans l’accident (n° plaque immatriculations, type de véhicule, localisation du choc, manœuvre,…)

  • Usagers.csv (125789 lignes): Décrit les usagers impliqués dans l’accident (place de l’usager dans le véhicule, gravité, trajet de l’usager,…)

Chacune des variables contenues dans une rubrique est reliée aux variables des autres rubriques. Le n° d’identifiant de l’accident (Cf. Num_Acc) présent dans ces 4 rubriques permet d’établir un lien entre toutes les variables qui décrivent un accident. Quand un accident comporte plusieurs véhicules, il est également possible de relier chaque véhicule à ses occupants. Ce lien est fait par la variable Num_veh.

3. Libraries utiles

4. Importation et traitementdes données

4.1. Importation des données

4.2. Gestion des données manquantes

Data summary
Name dataFus
Number of rows 309341
Number of columns 57
_______________________
Column type frequency:
character 35
difftime 1
numeric 21
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
id_usager 0 1.00 11 11 0 125789 0
id_vehicule.x 0 1.00 11 11 0 93545 0
num_veh.x 0 1.00 3 4 0 46 0
grav 0 1.00 1 3 0 5 0
sexe 0 1.00 1 3 0 3 0
trajet 0 1.00 1 3 0 8 0
secu1 0 1.00 1 3 0 11 0
secu2 0 1.00 1 3 0 11 0
secu3 0 1.00 1 3 0 11 0
locp 0 1.00 1 3 0 11 0
actp 0 1.00 1 3 0 13 0
etatp 0 1.00 1 3 0 4 0
voie 42 1.00 1 40 0 20064 0
v1 0 1.00 1 3 0 4 0
v2 20 1.00 1 3 0 25 0
circ 0 1.00 1 3 0 5 0
nbv 0 1.00 1 12 0 15 0
vosp 0 1.00 1 3 0 5 0
prof 0 1.00 1 3 0 5 0
pr 0 1.00 1 5 0 446 0
pr1 0 1.00 1 5 0 1363 0
plan 0 1.00 1 3 0 5 0
larrout 0 1.00 1 5 0 107 0
surf 0 1.00 1 3 0 10 0
infra 0 1.00 1 3 0 11 0
situ 0 1.00 1 3 0 8 0
vma 0 1.00 2 3 0 21 0
id_vehicule.y 0 1.00 11 11 0 93585 0
num_veh.y 0 1.00 3 4 0 46 0
obsm 0 1.00 1 3 0 8 0
motor 0 1.00 1 3 0 8 0
mois 0 1.00 2 2 0 12 0
dep 0 1.00 2 3 0 107 0
com 0 1.00 5 5 0 11311 0
adr 2314 0.99 1 91 0 28995 0

Variable type: difftime

skim_variable n_missing complete_rate min max median n_unique
hrmn 0 1 0 secs 86340 secs 15:00:00 1409

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
Num_Acc 0 1.00 2.023000e+11 1.580295e+04 202300000001 202300013694 202300027560 202300041127 202300054822 ▇▇▇▇▇
place 4 1.00 1.780000e+00 2.090000e+00 1 1 1 1 10 ▇▁▁▁▁
catu 0 1.00 1.270000e+00 5.300000e-01 1 1 1 1 3 ▇▁▂▁▁
an_nais 6356 0.98 1.984350e+03 1.860000e+01 1913 1971 1987 1999 2023 ▁▂▅▇▃
catr 0 1.00 3.250000e+00 1.200000e+00 1 3 3 4 9 ▂▇▁▁▁
lartpc 309236 0.00 4.120000e+00 1.770000e+00 1 3 3 5 8 ▂▇▃▁▃
senc 309 1.00 1.600000e+00 8.100000e-01 0 1 2 2 3 ▁▇▁▆▃
catv 7 1.00 1.303000e+01 1.416000e+01 0 7 7 10 99 ▇▂▁▁▁
obs 159 1.00 7.500000e-01 2.690000e+00 0 0 0 0 17 ▇▁▁▁▁
choc 170 1.00 2.930000e+00 2.380000e+00 0 1 2 4 9 ▇▅▂▂▂
manv 109 1.00 6.890000e+00 7.820000e+00 0 1 2 15 26 ▇▁▂▁▁
occutc 305374 0.01 7.310000e+00 1.318000e+01 0 1 1 6 65 ▇▁▁▁▁
jour 0 1.00 1.537000e+01 8.740000e+00 1 8 15 23 31 ▇▇▆▆▆
an 0 1.00 2.023000e+03 0.000000e+00 2023 2023 2023 2023 2023 ▁▁▇▁▁
lum 0 1.00 1.920000e+00 1.500000e+00 -1 1 1 3 5 ▁▇▁▁▂
agg 0 1.00 1.620000e+00 4.900000e-01 1 1 2 2 2 ▅▁▁▁▇
int 0 1.00 2.290000e+00 1.930000e+00 -1 1 2 3 9 ▇▆▁▁▁
atm 0 1.00 1.610000e+00 1.670000e+00 -1 1 1 1 9 ▇▂▁▁▁
col 0 1.00 3.410000e+00 1.610000e+00 -1 2 3 5 7 ▁▅▇▃▃
lat 0 1.00 4.442175e+09 1.212103e+09 -2337250400 4486063000 4796417400 4886458900 5104749000 ▁▁▁▁▇
long 0 1.00 1.934793e+08 1.866823e+09 -17620700000 125688000 238747100 472246000 16809567000 ▁▁▇▁▁

On décide d’amputer les variables lartpc et l’occutc qui sont constituées à près de 99%

Concernant les variables qui possèdent de valeurs manquantes de pourcentage inferieur à 10%, nous allons supprimé les lignes correspondantes sans perte trop d’informations sur le jeu de donnée global.

4.3. Amputation des données manquantes

4.4. Prétraitement des données

Conversion en facteur de certaines variables:

5. Quelques graphes des tendances

5.1. Evolution du nombre d’accident et de morts par mois

Nous pouvons constaté ici que le nombre d’accidents à connu une montée maximale dans les de Juin, juiellet, Août, Septembre, Octobre, Novembre. Des conclusions partiellels et qui seront confirmées ou infirmées par d’autres analyses sont : conditions météorologiques changeantes (automne-hiver), variation de la luminosité ( journées racourcies à partir de septembre, ce qui peut entrainer une fatigue visuelle pour les conducteurs). Nous avons aussi les périodes estivales (densité de la circulation routière, surtout sur les auto-route).

5.2. Evolution du nombre d’accidents par jour

<ScaleContinuousDate>
 Range:  
 Limits:    0 --    1

5.3. Les victimes d’accidents en fonction de l’âge et du sexe

On constate un pic de la courbe à 23-25 ans. Ce qui traduit l’idée selon laquelle les jeunes sont en majorité impliqués dans les accidents qui leur coûtent leurs vie.

On peut aussi remarquer que les hommes sont les plus impliqués dans les accidents.

5.4. Le nombre d’accidents par région

On constate qu’il y a plus d’accidents dans la région ill-de_France plus que les autres régions. Ce qui pourrait s’expliquer par la densité de la population dans cette région.

5.6. Influence des conditions métorologiques sur les accidents

Bien que cela semble contre intuitif, on peut constater que le nombre d’accidents est fortement élévé dans les conditions météologiques normales. Ceci pourait s’expliquer par des facteurs comportementaux, environementaux et forte exposition aux risques.

5.7. Répartition des modalités de la variable gravité

Le nombre de blessé leger et celui de personnes indemne est largement superieur aux nombre de blessé hospitalisé et tué. Mieux, le nombre de tué au cours de l’année est minime devant le nombre d’accidents totals. On esperait pas plus, mais on met juste l’accent sur le fait que gracieusement petit devant le nombre total d’accidents.

5.8. Répartition des accidents suivants l’éclairage

Contre intuitif, le nombre d’accidents en plein jour depasse largement celui des autres luminosité. Ce qui pourrait également s’expliquer par les facteurs comportementaux, environementaux, …

4. Cartographie

# A tibble: 309,341 × 3
        Num_Acc   Lat  Long
          <dbl> <dbl> <dbl>
 1 202300000001  48.9  2.32
 2 202300000001  48.9  2.32
 3 202300000002  48.8  2.43
 4 202300000002  48.8  2.43
 5 202300000003  48.8  2.41
 6 202300000003  48.8  2.41
 7 202300000003  48.8  2.41
 8 202300000003  48.8  2.41
 9 202300000003  48.8  2.41
10 202300000003  48.8  2.41
# ℹ 309,331 more rows